Model Selection

Multilingual Caption Generation

# Multilingual Caption Generation

Paligemma2 3b Pt 896

PaliGemma 2 is a multimodal vision-language model that combines image and text inputs to generate text outputs. It supports multiple languages and is suitable for various vision-language tasks.

Paligemma 3b Ft Cococap 224

PaliGemma is a multi-functional lightweight vision-language model (VLM) that supports multi-language input and output and is suitable for various vision-language tasks.

Paligemma 3b Pt 896

PaliGemma is a versatile lightweight vision-language model (VLM) that supports image and text inputs and generates text outputs. It has multilingual capabilities.

Paligemma 3b Ft Science Qa 224

PaliGemma is a multi-functional lightweight vision-language model (VLM) that supports image and text input and generates text output, suitable for various vision-language tasks.

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase